﻿ CoRoLa Final de Proiect Dan Cristea, Mihaela Plamadă, Daniela Gîfu, Andrei Scutelnicu, Alex Moruz, Cecilia Bolea, Laura Pistol CoRoLA (Corpus of Contemporary Romanian Language) • Proiect prioritar al Academiei Române (2014 - 2017); • Parteneri: - Instutul de Cercetări pentru Inteligența Arﬁcială (ICIA); - Instutul de Informacă Teorecă (IIT) • Voluntari: - Universitatea “Al I Cuza” Iaşi; - Universitatea Bucureş; - Politehnica Bucureş; DRuKoLA • Proiect ﬁnanţat de Fundaţia Humboldt • Parteneri: - Universitatea Bucureş; - Instutul Deutsche Sprache din Manheim (Germania); - Instutul de Cercetări pentru Inteligența Arﬁcială (ICIA); - Instutul de Informacă Teorecă (IIT) Corpus computațional de referință pentru limba română contemporană • Corpus = Colecţie mare de texte scrise şi vorbite CoRoLa (peste 500 milioane de cuvinte și 300 ore de înregistrări vocale) • Computaţional = în format electronic; • De referinţă = oferă informații cuprinzătoare despre limbă (bază pentru realizarea dicționarelor, gramacilor, studiilor lingvisce); • Contemporan = texte scrise şi orale de după 1945 Furnizori de texte • Edituri (E Academiei Române, Adenium, Doxologia, Economica, Gama, Humanitas, E Instutul European Iași, PIM, Polirom, Simetria, E Universității din Bucureș, Seraﬁca, Casa Editorială Demiurg, Papirus Media, etc ); • Persoane ﬁzice (Daniela Gîfu, Corneliu Leu, etc ), proprietari de bloguri (simina Tache, Teodore Forăscu, etc ), ziare (DCNEWS, PRESSONLINE RO), reviste (Desne Literare, România Literară); • Texte orale (Societatea Română de Radiodifuziune, Radio Viva, Roman TV, Studioul Regional Radio România, etc) Colecţia de texte • Texte furnizate în format electronic: - PDF, DOC ( edituri, persoane ﬁzice); - HTML (prin CRAWLING - bloguri, ziare); - WAV, MP3, MP4 - înregistrări audio • Format ﬁnal – ﬁşiere în format XML, WAV, MP3 Medatate (pentru corpusul text) • Title; • Author name; • Publicaon Date; • Source (publishing house, journal, proceedings); • Source name; • Medium (wrien or oral); • DocumentTextStyle (Administrave/Imaginave/Journalisc/Law/ Memoirs/Science) • DocumentTextDomain: (Arts and Culture/ Society/Nature/Science) • DocumentTextSubDomain • ISBN/ISSN • etc Curăţarea textelor • Eliminare marcaje: - titlu; - autori; - ISBN; - editură; - headere/Footer; - note de subsol; - formule, tabele; - cuprins, listă bibliograﬁcă, etc • Corecţie diacrice Prelucrarea automată a textelor scrise • Împărţirea în fraze; • Tokenizere (cuvinte şi punctuaţie); • Lemazare; • Adnotare Part-of-Speech; • Parsare sintaccă; Exemplu - prelucrare morfo - lexicală Prelucrarea automată a înregistrărilor orale - niveluri de adnotare - • Transcriere ortograﬁcă; • Aliniere: text vorbit - text scris; • Segmentare la fraze • Lemazare; • Tokenizare; • Echetare Part-of-Speech; • Împărţire în silabe (silabisire); • Variante fonem în funcţie de context Înregistrare de texte cuplată cu Praat (transcrierea şi alinierea textelor) Aplicaţie - dezvoltată de dl dr V Apopei Handbook tedious Praat (transcription + turn-taking alignment) Metadata (a ) wav, 16 bit, 22050 Hz, mono Volunteer Handbook tedious Praat (turn-taking alignment) T ranscription (txt, doc) (b) Exemplu - prelucrare text vorbit 0 00 0 63 [silence] 0 63 1 38 desnderea 0 6300000 sil sil6300000 7000000 1 38 1 48 [silence] d desnderea7000000 7500000 8400000 1 48 1 92 r3ce1te e7500000 s8400000 9300000 1 92 2 45 aburul t9300000 9900000 2 45 2 76 [silence] i9900000 10800000 2 76 3 04 asel Aliniere la n10800000 11200000 3 04 3 17 c3 nivel de d11200000 11800000 3 17 3 46 poate cuvânt e11800000 12100000 3 46 3 78 ap3rea r12100000 12600000 3 78 3 82 [silence] e@12600000 13800000 3 82 4 27 condensarea a13800000 14800000 Aliniere la 4 27 4 50 unei sp14800000 15500000 nivel de r3ce1te15500000 16200000 4 50 4 83 p3r2i r@16200000 17200000 4 83 5 10 din ch17200000 17500000 fonem 5 10 5 42 abur e17500000 18000000 5 42 5 79 [silence] Stasci corpus textual - 880 975 551 de cuvinte (iunie 2017) Distribuţia pe domenii (DocumentTextStyle) Journalisc, 77,277,228 Others, 2,100,318 Science, 184,761,720 Law; 527 519 345 Imaginave, 51,617,302 Administrave, 11,564,015 Memoirs, 26,135,623 Distribuţia pe sluri (DocumentTextDomain) Art and Culture, 27,697,861 Others, 1,831,275 Nature, 119,150,171 Science, 160,309,410 Society, 571,986,834 Stasci corpus oral – 272 ore de înregistrări Corpus Type Source Time length (h:m:s) RASC many speakers (read) RoWikipedia 14:22:02 RSS-ToBI single speaker (read) news&fairy tales 03:44:00 RADOR many speakers read news& interviews 106:52:33 ICIA Radio Iaşi many speakers read news& interviews under development Audio-books single/mulple read stories (~200h) (not IPR cleared) speaker 134:57:24 Corpus Tip Transcris Durată (h) înregistrări (h) RomanTV vorbitori mulpli 12 23 RadioVIVA vorbitori mulpli 3 4 RadioIasi vorbitori mulpli 33 33 RadioU vorbitori mulpli 20 20 IIT Teatru vorbitori mulpli 8 8 AudioBooks un singur vorbitor 43 43 Prof L Carausu vorbitori mulpli 4 4 Înregistrări prozodice vorbitori mulpli 2 2 Total ore 125 137 Administrarea Plaormei Corpusului • Administrarea Corpusului: – Achiziţia de date: texte scrise şi orale – Curăţarea – Metadate – Întreţinere – Acces Prelucrarea datelor: Curator – Provider – Portal Portalul CoRoLa CoDAP CoRoLa Data cleaning and metadata Plaorm (hp://89 38 230 23/) Acces CoRoLa va fi deschis pentru interogarea în două medii: • IMS Open Corpus Workbench (CWB), http:// cwb sourceforge net/ • Interfața de interogare KorAP (IDS Mannheim) CoRoLa în IMS Open Corpus Workbench (CWB) CoRoLa în KorAP (hp://89 38 230 10:5555) Interfaţa de interogare KorAP • Permite administrarea unor corpusuri mari (zeci de miliarde de cuvinte); • Se poate adapta uşor la diferite sluri de adnotare; • Limbaj de interogare puternic: - niveluri mulple; - diferite criterii de interogare: orice câmp din metadate şi orice combinaţie posibilă din aceste câmpuri; - ulizatorul poate să-şi construiască un corpus virtual propriu (exemplu “texte privind arhitectura publicate în perioada 2000- 2005”) • Rezultatele căutării sunt fragmente de dimensiune rezonabilă pentru invesgaţia lingviscă (1 – 2 propoziţii) Vă mulţumim! 